5 research outputs found

    Semantic Biclustering

    Get PDF
    Tato disertační práce se zaměřuje na problém hledání interpretovatelných a prediktivních vzorů, které jsou vyjádřeny formou dvojshluků, se specializací na biologická data. Prezentované metody jsou souhrnně označovány jako sémantické dvojshlukování, jedná se o podobor dolování dat. Termín sémantické dvojshlukování je použit z toho důvodu, že zohledňuje proces hledání koherentních podmnožin řádků a sloupců, tedy dvojshluků, v 2-dimensionální binární matici a zárove ň bere také v potaz sémantický význam prvků v těchto dvojshlucích. Ačkoliv byla práce motivována biologicky orientovanými daty, vyvinuté algoritmy jsou obecně aplikovatelné v jakémkoli jiném výzkumném oboru. Je nutné pouze dodržet požadavek na formát vstupních dat. Disertační práce představuje dva originální a v tomto ohledu i základní přístupy pro hledání sémantických dvojshluků, jako je Bicluster enrichment analysis a Rule a tree learning. Jelikož tyto metody nevyužívají vlastní hierarchické uspořádání termů v daných ontologiích, obecně je běh těchto algoritmů dlouhý čin může docházet k indukci hypotéz s redundantními termy. Z toho důvodu byl vytvořen nový operátor zjemnění. Tento operátor byl včleněn do dobře známého algoritmu CN2, kde zavádí dvě redukční procedury: Redundant Generalization a Redundant Non-potential. Obě procedury pomáhají dramaticky prořezat prohledávaný prostor pravidel a tím umožňují urychlit proces indukce pravidel v porovnání s tradičním operátorem zjemnění tak, jak je původně prezentován v CN2. Celý algoritmus spolu s redukčními metodami je publikován ve formě R balííčku, který jsme nazvali sem1R. Abychom ukázali i možnost praktického užití metody sémantického dvojshlukování na reálných biologických problémech, v disertační práci dále popisujeme a specificky upravujeme algoritmus sem1R pro dv+ úlohy. Zaprvé, studujeme praktickou aplikaci algoritmu sem1R v analýze E-3 ubikvitin ligázy v trávicí soustavě s ohledem na potenciál regenerace tkáně. Zadruhé, kromě objevování dvojshluků v dat ech genové exprese, adaptujeme algoritmus sem1R pro hledání potenciálne patogenních genetických variant v kohortě pacientů.This thesis focuses on the problem of finding interpretable and predic tive patterns, which are expressed in the form of biclusters, with an orientation to biological data. The presented methods are collectively called semantic biclustering, as a subfield of data mining. The term semantic biclustering is used here because it reflects both a process of finding coherent subsets of rows and columns in a 2-dimensional binary matrix and simultaneously takes into account a mutual semantic meaning of elements in such biclusters. In spite of focusing on applications of algorithms in biological data, the developed algorithms are generally applicable to any other research field, there are only limitations on the format of the input data. The thesis introduces two novel, and in that context basic, approaches for finding semantic biclusters, as Bicluster enrichment analysis and Rule and tree learning. Since these methods do not exploit the native hierarchical order of terms of input ontologies, the run-time of algorithms is relatively long in general or an induced hypothesis might have terms that are redundant. For this reason, a new refinement operator has been invented. The refinement operator was incorporated into the well-known CN2 algorithm and uses two reduction procedures: Redundant Generalization and Redundant Non-potential, both of which help to dramatically prune the rule space and consequently, speed-up the entire process of rule induction in comparison with the traditional refinement operator as is presented in CN2. The reduction procedures were published as an R package that we called sem1R. To show a possible practical usage of semantic biclustering in real biological problems, the thesis also describes and specifically adapts the algorithm for two real biological problems. Firstly, we studied a practical application of sem1R algorithm in an analysis of E-3 ubiquitin ligase in the gastrointestinal tract with respect to tissue regeneration potential. Secondly, besides discovering biclusters in gene expression data, we adapted the sem1R algorithm for a different task, concretely for finding potentially pathogenic genetic variants in a cohort of patients

    Application Demonstrating the Fingerprint Processing

    Get PDF
    Cílem této bakalářské práce je vytvořit program, který bude názorně a srozumitelně demonstrovat jednotlivé fáze zpracování otisku prstu. Program je implementován v jazyce C++ s využitím multiplatformní knihovny Qt pro tvorbu uživatelského rozhraní. Pro získání otisků prstů v reálném čase je použit senzor Lumidigm, kterým bylo nasnímáno celkem 100 otisků prstů od 10 různých osob a dosažené výsledky byly zhodnoceny.The goal of this thesis is to create a program which will clearly and comprehensively demonstrate individual phases of fingerprint processing. The program is implemented in C++ language with using of QT cross-platform library for creating user interface. To obtain a fingerprints in real time is used Lumidigm sensor, which were scanned 100 fingerprints in total from 10 different people and the results were evaluated.

    Prediction of Protein Stability upon Mutations Using Machine Learning

    Get PDF
    Tato práce popisuje nový přístup k predikci vlivu aminokyselinových mutací na změnu stability proteinu. Cílem je vytvořit nový meta-nástroj, který kombinuje výstupy osmi vybraných nástrojů, díky čemuž je schopen svoji predikční schopnost zlepšit. Pro nalezení optimálního konsenzu mezi těmito nástroji je použito různých metod strojového učení. Ze všech testovaných metod strojového učení dosahuje KStar nejvyšší úspěšnosti predikce na trénovacím datasetu tvořeného experimentálně ověřenými mutacemi z databáze ProTherm. Právě z tohoto důvodu je KStar vybrán jako optimální predikční technika. Pro prokázání korektnosti výsledků tohoto meta-nástroje je použito testovacího datasetu vytvořeného ojedinělým způsobem, a to z vícebodových mutací extrahovaných taktéž z databáze ProTherm. Jelikož nebyly vícebodové mutace použity pro natrénování žádného z integrovaných nástrojů, předpokládá se, že takovéto porovnání je objektivní. Ve výsledku se tímto přístupem podařilo pomocí metody strojového učení KStar zvýšit korelační koeficient na trénovacím datasetu o 0,130, respektive o 0,239 na datasetu testovacím oproti nejúspěšnějšímu integrovanému nástroji. Na základě zjištěných údajů je možné říci, že metody strojového učení jsou vhodnými technikami pro problémy z oblasti proteinových predikcí.This thesis describes a new approach to the detection of protein stability change upon amino acid mutations. The main goal is to create a new meta-tool, which combines the outputs of eight well-established prediction tools and due to suitable method of consensus making, it is able to improve the overall prediction accuracy. The optimal strategy of combination of outputs of these tools is found by using a various number of machine learning methods. From all tested machine learning methods, KStar showed the highest prediction accuracy on the training dataset compiled from experimentally validated mutations originating from ProTherm database. Due to this reason, it is chosen as an optimal prediction technique. The general prediction abilities is validated on the testing dataset composed of multi-point amino acid mutations extracted also from ProTherm database. Since the multi-point mutations were not used for training any of integrated tools, we suppose that such comparison is objective. As a result, the developed meta-tool based on KStar technique improves the correlation coefficient about 0.130 on the training dataset and 0.239 on the testing dataset, respectively (the comparison is being made against the most succesful integrated tool). Based on the obtained results, it is possible to claim that machine learning methods are suitable technique for the problems from area of protein predictions.

    Semantic biclustering for finding local, interpretable and predictive expression patterns

    No full text
    Abstract Background One of the major challenges in the analysis of gene expression data is to identify local patterns composed of genes showing coherent expression across subsets of experimental conditions. Such patterns may provide an understanding of underlying biological processes related to these conditions. This understanding can further be improved by providing concise characterizations of the genes and situations delimiting the pattern. Results We propose a method called semantic biclustering with the aim to detect interpretable rectangular patterns in binary data matrices. As usual in biclustering, we seek homogeneous submatrices, however, we also require that the included elements can be jointly described in terms of semantic annotations pertaining to both rows (genes) and columns (samples). To find such interpretable biclusters, we explore two strategies. The first endows an existing biclustering algorithm with the semantic ingredients. The other is based on rule and tree learning known from machine learning. Conclusions The two alternatives are tested in experiments with two Drosophila melanogaster gene expression datasets. Both strategies are shown to detect sets of compact biclusters with semantic descriptions that also remain largely valid for unseen (testing) data. This desirable generalization aspect is more emphasized in the strategy stemming from conventional biclustering although this is traded off by the complexity of the descriptions (number of ontology terms employed), which, on the other hand, is lower for the alternative strategy
    corecore